rmdformats::downcute: self_contained: true thumbnails: true lightbox: true gallery: false highlight: .readthedown

Contexto

Esta serie consta del valor FOB en dólares de las importaciones que llegan a los puertos de Colombia vía marítima y su destino final es la ciudad de Bogotá, en el periodo transcurrido entre enero del 2012 hasta diciembre de 2021, la serie es de tipo mensual.

Definición: El valor FOB en dólares de la mercancía, es valor de la mercancía en el momento que se carga a bordo del medio de transporte, en este caso el marítimo.

La serie consta de 120 observaciones, lo que corresponde a los 10 transcurridos desde el 2012 hasta el 2021

# 1.000'000.000
vafodo <- ts(importaciones[,3], start = c(2012, 01), frequency =12)/1000000000
plot(vafodo, ylab = "Miles de millones de dólares", main = "Valor FOB", lw =2)

Visualmente vemos que la serie presenta una tendencia, la cual parece ser creciente con el tiempo. El rango de valores que toma la variable se va haciendo cada vez mayor (heteroscedasticidad).

1. Parte descriptiva

1.1 Estabilización de la varianza

Transformación de Box-Cox

serie <- vafodo
a <- MASS::boxcox(lm(serie ~ 1), seq(-1, 1, length = 50))

BC.m <- a$x[which.max(a$y)]
BC.f <- forecast::BoxCox.lambda(serie, method = "loglik", 
                        lower = -1,
                        upper = 1) 
# Transformación logarítmica 
lserie <- log(vafodo)
a <- MASS::boxcox(lm(lserie ~ 1), seq(-2, 2, length = 50))

BC.ml <- a$x[which.max(a$y)]
BC.fl <- forecast::BoxCox.lambda(lserie, method = "loglik", 
                        lower = -2,
                        upper = 2) 

c(BC.f, BC.fl, BC.m, BC.ml)
## [1] -0.2500000 -0.2000000 -0.1919192 -0.1414141

En el primer gráfico podemos ver que el IC para \(\lambda\) no captura al 1, además el valor de \(\lambda\) para estabilizar la varianza es -0.25, por tanto usaremos \(\lambda =0\) para estabilizar la varianza. En el segundo gráfico ya podemos ver esta transformación logarítmica aplicada, ahora en el IC está incluido el 1 y el \(\lambda\) que estabiliza la varianza es -0.2.

1.2 Estimación de la tendencia (lineal)

fit_lserie <- lm(lserie ~time(lserie), na.action = NULL)
summary(fit_lserie)
## 
## Call:
## lm(formula = lserie ~ time(lserie), na.action = NULL)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.6748 -0.1490  0.0355  0.2354  0.5725 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -3.251e+02  1.920e+01  -16.93   <2e-16 ***
## time(lserie)  1.630e-01  9.521e-03   17.12   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3011 on 118 degrees of freedom
## Multiple R-squared:  0.713,  Adjusted R-squared:  0.7106 
## F-statistic: 293.2 on 1 and 118 DF,  p-value: < 2.2e-16
# Grafico
plot(lserie, lw = 2, main = "Valor FOB en escala log", ylab = "Log de miles de millones de dólares")
abline(fit_lserie, col = "blue", lw = 2)

# Eliminando la tendencia
lserie.sin.tend <- lserie - predict(fit_lserie)
plot(lserie.sin.tend, main = "Valor FOB en escala log sin tendencia", lw =2)

acf(lserie, lag.max = length(lserie))

acf(lserie.sin.tend, lag.max = length(lserie.sin.tend))

La estimación de la tendencia por medio de una regresión lineal simple nos da los parámetros \(\hat{\beta}_0\) y \(\hat{\beta}_1\) significativos, sin embargo al observar la gráfica tenemos que una regresión lineal simple no es una forma óptima de eliminar la tendencia.

1.3 Promedio móvil

descomposicion_lserie <- decompose(lserie)
plot(descomposicion_lserie)

Como se vio en el punto anterior los datos no presentan una tendencia del todo lineal, además no se veian indicios de estacionalidad, por lo que es necesario aplicar el filtro de promedio móvil. Al aplicarlo podemos ver que la tendencia definitivamente no es lineal, la componente residual no muestra un comportamiento estacional.

1.4 Tendencia desde el STL

En el primer gráfico se hizo un ajuste STL sin ajustar los parámetros, para el segundo se ajustó un polinomio de grado 2, el cual se ajusta mejor que la anterior.

indice_lserie <- as.Date(as.yearmon(tk_index(lserie)))
indice_lserie1 <- yearmonth(as.yearmon(tk_index(lserie)))

# Forma alternativa de extraer el indice
df_lserie <- data.frame(Fecha = indice_lserie, 
                              lserie = as.matrix(lserie))
tibble_lserie <- tibble(df_lserie)
tsibble_lserie <- as_tsibble(df_lserie)

# Primera aproximación al ajuste STL 
tsibble_lserie %>%
  timetk::plot_time_series(Fecha, lserie,
                           .interactive = TRUE,
                           .plotly_slider = TRUE)
# Ajuste STL 
tibble_lserie %>%  
  mutate(lserie_ajust = smooth_vec(lserie,
                                   span = 0.2,
                                   degree =2)
)
## # A tibble: 120 × 3
##    Fecha      lserie lserie_ajust
##    <date>      <dbl>        <dbl>
##  1 2012-01-01   2.76         2.86
##  2 2012-02-01   2.88         2.90
##  3 2012-03-01   2.98         2.93
##  4 2012-04-01   2.77         2.96
##  5 2012-05-01   3.16         2.99
##  6 2012-06-01   3.16         3.00
##  7 2012-07-01   3.13         3.02
##  8 2012-08-01   3.18         3.04
##  9 2012-09-01   3.06         3.04
## 10 2012-10-01   2.99         3.04
## # ℹ 110 more rows
# Ajuste STL moviendo los parámetros
tsibble_lserie %>% mutate(
  lserie_ajus = smooth_vec(lserie, span = 0.2, degree = 2)) %>% 
  ggplot(aes(Fecha, lserie)) + 
  geom_line(size =1.05)+
  geom_line(aes(y = lserie_ajus), color = "blue", size =1.05) +
  theme_bw()

tsibble_lserie %>% mutate(
  lserie_ajus = smooth_vec(lserie, span = 0.2, degree = 2), 
  dlserie_ajus = lserie - lserie_ajus) %>% 
  ggplot(aes(Fecha, dlserie_ajus)) + 
  geom_line(size =1.05)+
  theme_bw()

1.4.1 STL Tendencia y estacionalidad

tsibble_lserie <- as_tsibble(lserie)

tsibble_lserie %>% 
  model(
    STL(value ~ trend() + 
          season(window = "periodic"),
        robust = TRUE)) %>% 
  components() %>% 
  autoplot() +
  theme_minimal()

1.5 Diferencia Ordinaria

# escala log
tsibble_lserie|>mutate(
  diff_lserie = tsibble::difference(value, lag = 1, 
                                     differences = 1))|>
  autoplot(.vars = diff_lserie, size = 1.05) + 
  labs(subtitle = "Cambios en escala log del valor FOB") +
  theme_bw()

tsibble_lserie <- tsibble_lserie|>mutate(
  diff_lserie = tsibble::difference(value, lag = 1,
                                      difference = 1))

# Diferenciando basado en el objeto tibble
tibble_lserie %>% 
  mutate(diff_lserie = lserie - lag(lserie)) %>% 
  plot_time_series(Fecha, diff_lserie)
tibble_lserie <- tibble_lserie %>% 
  mutate(diff_lserie = lserie - lag(lserie))

dlserie <- diff(lserie)

1.6 Relaciones no lineales dispersión

par(mar = c(3,2,3,2))
astsa::lag1.plot(dlserie, 12, corr = T)

1.7 ACF

El acf no parece sugerir una componente estacional.

acf(dlserie, lag.max = 50, main = "Serie diferenciada y con logaritmo del valor FOB")

1.8 Índice AMI

par(mar = c(3,2,3,2))
astsa::lag1.plot(lserie, 12, corr = F)

nonlinearTseries::mutualInformation(lserie, lag.max = 100,
                                    n.partitions = 50, 
                                    units = "Bits",
                                    do.plot = TRUE)

## $time.lag
##   [1]   0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
##  [19]  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
##  [37]  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
##  [55]  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
##  [73]  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
##  [91]  90  91  92  93  94  95  96  97  98  99 100
## 
## $mutual.information
##   [1] 4.862322 3.052912 2.910639 2.853770 2.920942 2.891607 2.907651 2.827147
##   [9] 2.925675 2.864164 2.945057 2.907872 2.930455 2.937367 2.914099 2.921245
##  [17] 2.897458 2.858685 2.728650 2.655587 2.641206 2.651833 2.831493 2.653982
##  [25] 2.687045 2.755120 2.669964 2.698785 2.654698 2.684328 2.620457 2.686898
##  [33] 2.690152 2.653327 2.639095 2.577666 2.568432 2.634660 2.650707 2.454465
##  [41] 2.437976 2.415092 2.475064 2.416767 2.337317 2.276132 2.396371 2.311431
##  [49] 2.352713 2.306940 2.231579 2.096361 2.185558 2.277735 2.168338 2.190601
##  [57] 2.096567 2.011887 1.924846 1.933693 1.876562 1.929006 1.939626 1.783764
##  [65] 1.850553 2.089983 1.879139 1.926220 1.970048 1.892796 1.973020 1.991408
##  [73] 2.021388 1.989870 1.978963 2.251709 2.071896 2.081328 2.122268 2.166044
##  [81] 2.207717 2.342629 2.320075 2.513545 2.468303 2.236186 2.380430 2.596091
##  [89] 2.451598 2.517136 2.321928 2.476648 2.340975 2.253077 2.179329 2.402292
##  [97] 2.312907 2.239678 2.344462 2.271873 2.395462
## 
## $units
## [1] "Bits"
## 
## $n.partitions
## [1] 50
## 
## attr(,"class")
## [1] "mutualInf"

1.9 Exploración de la Estacionalidad

monthplot(dlserie)

tibble_lserie %>%na.omit()|>
    mutate(
        Mes = str_c("", as.character(lubridate::month(Fecha,label=TRUE)))
    ) %>%
    plot_time_series(
        .date_var = Fecha,
        .value = diff_lserie,
        .facet_vars = Mes,
        .facet_ncol = 4, 
        .color_var = Mes, 
        .facet_scales = "fixed",
        .interactive = FALSE,
        .legend_show = FALSE,
        .smooth = FALSE
    )

ggseasonplot(dlserie)

1.9.1 Gráfico de cajas

tibble_lserie %>%
  na.omit() %>% 
  plot_seasonal_diagnostics(.date_var = Fecha,.value = diff_lserie,
                            .feature_set = c("month.lbl"),.geom="boxplot")
ggplot(tibble_lserie %>%
         na.omit()|>
    mutate(Mes = str_c("Mes ", as.character(lubridate::month(Fecha)))),
    aes(x = diff_lserie)) +
      geom_density(aes(fill = Mes)) +
      ggtitle("Estimación de la densidad vía Kernel por mes") +
      facet_grid(rows = vars(as.factor(Mes))) 

1.9.2 Periodograma

Periodgramadlserie  <- spectrum(as.numeric(dlserie),log='no', main = "Periodogram")
ubicacionlserie  <- which.max(Periodgramadlserie$spec)
abline(v = ubicacionlserie, , col = 'darkred', lty = 2)

sprintf("El valor de la frecuencia donde se máximiza el periodograma para la serie es: %s",Periodgramadlserie$freq[ubicacionlserie])
## [1] "El valor de la frecuencia donde se máximiza el periodograma para la serie es: 0.391666666666667"
sprintf("El periodo correspondiente es aproximadamente: %s",1/Periodgramadlserie$freq[ubicacionlserie])
## [1] "El periodo correspondiente es aproximadamente: 2.5531914893617"

1.9.3 Ajuste de la estacionalidad con componentes de Fourier y Dummy

tsibble_serie <- as_tsibble(serie)

diff_tsibble <- tsibble_serie|>
  mutate(logdiff_serie = difference(log(value)))|>
  select(logdiff_serie)

# Explore diferentes valores de K
Modelo_serie_diff<-diff_tsibble|>
  model(Fourier1seriediff = ARIMA(logdiff_serie ~ fourier(K=2) +
                                pdq(0, 0, 0) + PDQ(0, 0, 0)))

real_ajustado1 <- diff_tsibble %>%
  left_join(fitted(Modelo_serie_diff,by=index)) %>%
  select(-.model) 

real_ajustado1 %>%
  autoplot() +
  geom_line(data=real_ajustado1,
            aes(y=logdiff_serie, colour="real"))+
  geom_line(data=real_ajustado1,
            aes(y=.fitted, colour="ajustado"))+
  scale_color_manual(name = "real/ajustado", 
                     values = c("real" = "black", "ajustado" = "red")) +
  theme_minimal()

# Ajuste Dummy

Modelo_serie_diff_Dummy<-diff_tsibble|>model(
  DummyAirdiff=ARIMA(logdiff_serie~season()+pdq(0, 0, 0) + PDQ(0, 0, 0))
  
)

Modelo_serie_diff_Dummy<-diff_tsibble%>%left_join(fitted(Modelo_serie_diff,by=index))%>%select(-.model) 

Modelo_serie_diff_Dummy %>%
  autoplot() +
  geom_line(data=Modelo_serie_diff_Dummy,aes(y=logdiff_serie,colour="real"))+
  geom_line(data=Modelo_serie_diff_Dummy,aes(y=.fitted,colour="ajustado"))+
  scale_color_manual(name = "real/ajustado", values = c("real" = "black", "ajustado" = "red")) + theme_minimal()

# Varios modelos la mismo tiempo

ajuste_final_models<-diff_tsibble%>%model(
 Fourier1Airdiff=ARIMA(logdiff_serie~fourier(K=1)+pdq(0, 0, 0) + PDQ(0, 0, 0)),
 Fourier2Airdiff=ARIMA(logdiff_serie~fourier(K=2)+pdq(0, 0, 0) + PDQ(0, 0, 0)),
 Fourier3Airdiff=ARIMA(logdiff_serie~fourier(K=3)+pdq(0, 0, 0) + PDQ(0, 0, 0)),
DummyAirdiff=ARIMA(logdiff_serie~season()+pdq(0, 0, 0) + PDQ(0, 0, 0))
                                        )

glance(ajuste_final_models)
FALSE # A tibble: 4 × 8
FALSE   .model          sigma2 log_lik   AIC  AICc    BIC ar_roots  ma_roots 
FALSE   <chr>            <dbl>   <dbl> <dbl> <dbl>  <dbl> <list>    <list>   
FALSE 1 Fourier1Airdiff 0.0429    19.0 -32.1 -31.9 -23.7  <cpl [0]> <cpl [0]>
FALSE 2 Fourier2Airdiff 0.0428    20.2 -30.4 -29.8 -16.4  <cpl [0]> <cpl [0]>
FALSE 3 Fourier3Airdiff 0.0413    23.4 -32.7 -31.7 -13.2  <cpl [0]> <cpl [0]>
FALSE 4 DummyAirdiff    0.0409    26.5 -29.0 -26.1   4.42 <cpl [0]> <cpl [0]>
Modelo_serie_diff_models<-diff_tsibble%>%
  left_join(fitted(ajuste_final_models)|>
              group_by(.model)%>%
              pivot_wider(names_from = .model, values_from = .fitted))

Modelo_serie_diff_models %>%
  autoplot() +
  geom_line(data=Modelo_serie_diff_models,aes(y=logdiff_serie,colour="real"))+
  geom_line(data=Modelo_serie_diff_models,aes(y=Fourier1Airdiff,colour="ajustadoFourier1"))+
geom_line(data=Modelo_serie_diff_models,aes(y=Fourier2Airdiff,colour="ajustadoFourier2"))+ 
  geom_line(data=Modelo_serie_diff_models,aes(y=Fourier3Airdiff,colour="ajustadoFourier3"))+
  geom_line(data=Modelo_serie_diff_models,aes(y=DummyAirdiff,colour="ajustadoDummy")) +
  scale_color_manual(name = "real/ajustado", values = c("real" = "black", "ajustadoFourier1" = "red","ajustadoFourier2" = "blue","ajustadoFourier3"="green","ajustadoDummy"="yellow"))